# ChatGLMv2 6B 部署手册

本文档介绍了如何在墨芯 AI 加速卡上使用 SOLA 部署 ChatGLMv2 6B 模型。

## **模型简介**

ChatGLMv2 6B 是一个性能强大、易于部署的开源中英双语对话大模型，可用于各种自然语言处理任务。在初代模型的基础上进行了全面升级，在 MMLU、CEval、GSM8K、BBH 等多个数据集上取得了显著性能提升，具有对话流畅、部署门槛较低等优点。

## **模型配置**

- num_layers: 28
- num_heads: 32
- hidden_size: 13696
- vocab_size: 65024
- batch_size: 32
- token_num: 1
- max_seq_len: 512
- data_type: Bf16

## **系统要求**

- 至少需要 4 个设备
- 支持 AVX512f 或 SSE4 的 CPU

## 前提条件

请参见《SOLA Runtime 示例程序》完成基础环境配置。

## 使用**流程**

部署模型分为以下四个步骤：

> **说明**： 我们为以下每个步骤都提供了对应的脚本，您可以直接使用。

1. 下载模型和数据集：`prepare.sh`。
2. 编译模型：`build.sh`。
3. 运行模型：`run.sh`。
4. 验证运行结果：`verify.sh`。

您也可以参考以下步骤手动部署模型。

**部署步骤**

1. 下载模型依赖。您可以执行以下脚本下载模型依赖：

   ```Bash
      $ cd chatglmv2-6b
      $ ./prepare.sh
   ```

    若脚本执行失败，也可以通过以下链接手动下载并解压：

   ```bash
   $ wget https://moffett-oss-bucket01.oss-cn-shenzhen.aliyuncs.com/sola-demo/chatglm2/chatglmv2_serving_splitkv.tar.gz
   $ wget https://moffett-oss-bucket01.oss-cn-shenzhen.aliyuncs.com/sola-demo/tokenizer/chatglm2-6b.tar.gz
   ```

    将`chatglmv2_serving_splitkv.tar.gz`放到`data/model`目录下，`chatglm2-6b.tar.gz`放到 `data/tokenizer`。

2.  编译部署代码。

    ```Bash
    $ ./build.sh
    ```

3. 运行模型。 您可以执行以下脚本验证精度和性能：

    ```Bash
    $ ./run.sh
    ```

   也可以手动运行，模式是可选的：

   ```Bash
   # 问答模式
   $ export PYTHONPATH="$PYTHONPATH:$PWD/test"
   $ python3 test/chat_chatglmv26b.py --mode="qa"
   # 自动问答模式，问题可以手动指定，默认使用`data/questions.txt`
   $ python3 test/chat_chatglmv26b.py --mode="auto-qa" --questions="data/questions.txt"
   ```

## **性能指标参考**

测试环境：

- 2x Intel(R) Xeon(R) Platinum 8380 CPU @ 2.30GHz
- 16x 64GiB DDR4 3200 MHz

| **throughput** | **latency**     |
| -------------- | --------------- |
| 5.306 token/s  | 188.45 ms/token |